{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[]"
      ]
     },
     "execution_count": 2,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from glob import glob\n",
    "\n",
    "files = sorted(glob('chatgpt-twitter-noisy-translation/*'))\n",
    "files"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "import json\n",
    "\n",
    "twitter = []\n",
    "for f in files:\n",
    "    if 'filtered-twitter.jsonl' in f:\n",
    "        continue\n",
    "    with open(f) as fopen:\n",
    "        if 'gpt.requested' in f:\n",
    "            for l in fopen:\n",
    "                data = json.loads(l)\n",
    "                twitter.append(data)\n",
    "        else:\n",
    "            data = json.load(fopen)\n",
    "            twitter.extend(data)\n",
    "            \n",
    "twitter = [a for a in twitter if a is not None]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "652130"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "len(twitter)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "100%|████████████████████████████████████████████████████████████████████████████████████| 652130/652130 [00:00<00:00, 706573.31it/s]\n"
     ]
    }
   ],
   "source": [
    "from tqdm import tqdm\n",
    "\n",
    "filtered = []\n",
    "for d in tqdm(twitter):\n",
    "    if 'src' in d:\n",
    "        left = d['src']['original']\n",
    "        try:\n",
    "            en = d['r']['english']\n",
    "            ms = d['r']['malay']\n",
    "        except:\n",
    "            en = None\n",
    "            ms = None\n",
    "    else:\n",
    "        left = d[0]\n",
    "        success = False\n",
    "        try:\n",
    "            r = json.loads(d[1])\n",
    "            success = True\n",
    "        except:\n",
    "            pass\n",
    "        \n",
    "        if not success:\n",
    "            try:\n",
    "                r = eval(d[1])\n",
    "                success = True\n",
    "            except:\n",
    "                pass\n",
    "                    \n",
    "        if success:\n",
    "            if isinstance(r, tuple):\n",
    "                en = [r_['english'] for r_ in r]\n",
    "                ms = [r_['malay'] for r_ in r]\n",
    "                en = ' '.join(en)\n",
    "                ms = ' '.join(ms)\n",
    "            else:\n",
    "                en = r['english']\n",
    "                ms = r['malay']\n",
    "        else:\n",
    "            en = None\n",
    "            ms = None\n",
    "    \n",
    "    if not isinstance(en, str) or not isinstance(ms, str):\n",
    "        continue\n",
    "        \n",
    "    if en or ms:\n",
    "        filtered.append({\n",
    "            'left': left,\n",
    "            'en': en,\n",
    "            'ms': ms\n",
    "        })           "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(572039, 652130)"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "len(filtered), len(twitter)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "{'left': '@mazwinnikanis Dalam hujan lebat some more',\n",
       " 'en': 'In heavy rain some more',\n",
       " 'ms': 'Dalam hujan lebat lagi'}"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "filtered[0]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [],
   "source": [
    "with open('chatgpt-twitter-noisy-translation/filtered-twitter.jsonl') as fopen:\n",
    "    for l in fopen:\n",
    "        l = json.loads(l)\n",
    "        left = l[0]\n",
    "        en = l[1].get('british_english', l[1].get('english'))\n",
    "        ms = l[1].get('malay', l[1].get('Malay'))\n",
    "        d = {\n",
    "            'left': left,\n",
    "            'en': en,\n",
    "            'ms': ms\n",
    "        }\n",
    "        filtered.append(d)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "691083"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "len(filtered)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "{'left': 'burger king dekat kelantan semua tutup ',\n",
       " 'en': 'All Burger King outlets in Kelantan are closed',\n",
       " 'ms': 'Semua cawangan Burger King di Kelantan ditutup'}"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "filtered[-1]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [],
   "source": [
    "def reject(k):\n",
    "    if 'saya tidak dapat menterjemah teks' in k.lower():\n",
    "        return\n",
    "    if 'saya tidak boleh menterjemah kandungan yang tidak sesuai' in k.lower():\n",
    "        return\n",
    "    if 'saya tidak boleh menterjemah teks' in k.lower():\n",
    "        return\n",
    "    if 'teks yang diberikan tidak mempunyai makna' in k.lower():\n",
    "        return\n",
    "    if 'teks yang disediakan tidak boleh diterjemahkan' in k.lower():\n",
    "        return\n",
    "    if 'teks yang diberikan tidak masuk akal' in k.lower():\n",
    "        return\n",
    "    if 'teks yang diberikan nampaknya tidak' in k.lower():\n",
    "        return\n",
    "    if 'teks yang diberikan tidak mempunyai maksud' in k.lower():\n",
    "        return\n",
    "    if 'teks yang diberikan bukan dalam mana-mana bahasa' in k.lower():\n",
    "        return\n",
    "    if 'teks ini tidak boleh diterjemahkan' in k.lower():\n",
    "        return\n",
    "    if 'saya tidak dapat menterjemah frasa' in k.lower():\n",
    "        return\n",
    "    if 'teks yang disediakan bukan' in k.lower():\n",
    "        return\n",
    "    if 'teks yang diberikan tidak jelas' in k.lower():\n",
    "        return\n",
    "    if 'teks yang diberikan tidak' in k.lower():\n",
    "        return\n",
    "    if 'terjemahan teks kepada' in k.lower():\n",
    "        return\n",
    "    if 'saya tidak boleh menterjemah bahasa' in k.lower():\n",
    "        return\n",
    "    if 'model bahasa AI' in k:\n",
    "        return\n",
    "    if 'bahasa melayu standard' in k.lower():\n",
    "        return\n",
    "    if 'teks yang diberikan bukan dalam bahasa' in k.lower():\n",
    "        return\n",
    "    if 'teks yang anda berikan bukan' in k.lower():\n",
    "        return\n",
    "    if 'teks yang disediakan tidak' in k.lower():\n",
    "        return\n",
    "    if 'teks yang diberikan bukan' in k.lower():\n",
    "        return\n",
    "    if 'saya tidak dapat menterjemah' in k.lower():\n",
    "        return\n",
    "    if 'tetapi teks yang diberikan' in k.lower():\n",
    "        return\n",
    "    if 'return JSON structure' in k:\n",
    "        return\n",
    "    \n",
    "    return True"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "{'left': 'Bjirr wkwkk', 'en': 'Bjirr wkwkk', 'ms': 'Maaf, saya tidak dapat menterjemahkan teks ini.'}\n",
      "{'left': '@aewchelly @harikasinmlsf hosbdum silam', 'en': '@aewchelly @harikasinmlsf hosbdum silam', 'ms': 'Maaf, saya tidak dapat menterjemahkan teks ini kerana ia tidak mempunyai makna yang jelas.'}\n",
      "{'left': '@ikersalam1 @A1m4nKross Saley ore Besut', 'en': '@ikersalam1 @A1m4nKross Saley ore Besut', 'ms': 'Maafkan saya, saya tidak dapat menterjemahkan teks ini kerana ia tidak dalam bahasa Inggeris atau bahasa Melayu.'}\n",
      "{'left': 'Orang Kelantan ni kan kalau taip dalam whatsapp pun kena type dlm bahasa diorang gak ke? Takleh ke guna BM yg biasa https://t.co/uTYUlnBZ3f', 'en': \"Do people from Kelantan have to type in their own language even when using WhatsApp? Can't they use standard Malay?\", 'ms': 'Adakah orang Kelantan perlu menaip dalam bahasa mereka sendiri ketika menggunakan WhatsApp? Tidak bolehkah mereka menggunakan bahasa Melayu standard?'}\n",
      "{'left': 'Mat ri yeee', 'en': 'Mat ri yeee', 'ms': 'Maaf, saya tidak dapat menterjemahkan teks ini.'}\n",
      "{'left': '@bsystemgoup 500 perak itu mah', 'en': \"text, '@bsystemgoup 500 perak itu mah' translates to '500 perak is cheap' in standard Malay.\", 'ms': \"Teks, '@bsystemgoup 500 perak itu mah' bermaksud '500 perak murah' dalam Bahasa Melayu standard.\"}\n",
      "{'left': '@afysyhm kelia bleh lanja', 'en': 'Sorry, I cannot translate inappropriate language.', 'ms': 'Maaf, saya tidak dapat menterjemahkan bahasa yang tidak sopan.'}\n",
      "{'left': 'Laah looohh ', 'en': 'Laah looohh', 'ms': 'Maaf, saya tidak dapat menterjemahkan frasa ini.'}\n",
      "{'left': 'Foto Detil Batu Hajar Aswad, Ini Penjelasan dari Arab Saudi https://t.co/m4SlnrLPTo', 'en': \"Text, 'Detailed Photo of the Black Stone, Here's the Explanation from Saudi Arabia https://t.co/m4SlnrLPTo', translated to standard English and standard Malay.\", 'ms': \"Teks, 'Foto Terperinci Batu Hitam, Ini Penjelasan dari Arab Saudi https://t.co/m4SlnrLPTo', diterjemahkan ke bahasa Inggeris standard dan bahasa Melayu standard.\"}\n",
      "{'left': '@bambiloops Duid eopseoyooo \\nBtw mau di fb dungs ama you ', 'en': 'text, `@bambiloops Duid eopseoyooo \\nBtw mau di fb dungs ama you `, translate text to standard english and standard malay, return JSON structure ({\"english\", \"malay\"})', 'ms': 'teks, `@bambiloops Duid eopseoyooo \\nBtw nak ke fb dengan awak`, terjemahkan teks ke bahasa Inggeris standard dan bahasa Melayu standard, kembalikan struktur JSON ({\"Inggeris\", \"Melayu\"})'}\n",
      "{'left': 'Ek eleh tutup reply', 'en': 'text, `text, `Ek eleh tutup reply`, translate text to standard english and standard malay, return JSON structure ({\"english\", \"malay\"})`, translate text to standard english and standard malay, return JSON structure ({\"english\", \"malay\"})', 'ms': 'teks, `teks, `Ek eleh tutup reply`, terjemahkan teks ke bahasa Inggeris standard dan bahasa Melayu standard, kembalikan struktur JSON ({\"Inggeris\", \"Melayu\"})`, terjemahkan teks ke bahasa Inggeris standard dan bahasa Melayu standard, kembalikan struktur JSON ({\"Inggeris\", \"Melayu\"})'}\n",
      "{'left': 'Kuat sembang ', 'en': \"Text, 'Chatting', translate text to standard English and standard Malay\", 'ms': \"Teks, 'Bercakap-cakap', terjemahkan teks ke Bahasa Inggeris standard dan Bahasa Melayu standard\"}\n",
      "{'left': '@imananda01 Kalau dalam BM Standard, ya memang lebih kepada cili, walaupun kata cabai juga difahami.\\n\\nCabai lebih k https://t.co/DoEre1F0Vg', 'en': \"@imananda01 If in Standard Malay, yes it is more towards 'cili', although the word 'cabai' is also understood. 'Cabai' is more k https://t.co/DoEre1F0Vg\", 'ms': \"@imananda01 Jika dalam Bahasa Melayu Standard, ya ia lebih kepada 'cili', walaupun perkataan 'cabai' juga difahami. 'Cabai' lebih k https://t.co/DoEre1F0Vg\"}\n",
      "{'left': 'poster sowoozoo pun ara ade extra , kalau ara nk jual rm15 je sekeping exc tube dgn local postage , ade yg nak tak? https://t.co/5ivi6XhvWE', 'en': \"Text, 'Poster Sowoozoo pun ara ade extra, kalau ara nk jual rm15 je sekeping exc tube dgn local postage, ade yg nak tak? https://t.co/5ivi6XhvWE', translate text to standard English and standard Malay, return JSON structure ({'english', 'malay'})\", 'ms': \"Teks, 'Poster Sowoozoo pun ara ade extra, kalau ara nk jual rm15 je sekeping exc tube dgn local postage, ade yg nak tak? https://t.co/5ivi6XhvWE', terjemahkan teks ke bahasa Inggeris standard dan bahasa Melayu standard, kembalikan struktur JSON ({'english', 'malay'})\"}\n",
      "{'left': \"(20/05/22 JIWOO'S STORY TRANS) https://t.co/J6VH5D5Fqj\", 'en': 'Text, \\'(20/05/22 JIWOO\\'S STORY TRANS) https://t.co/J6VH5D5Fqj\\', translate text to standard English and standard Malay, return JSON structure ({\"english\", \"malay\"})', 'ms': 'Teks, \\'(20/05/22 JIWOO\\'S STORY TRANS) https://t.co/J6VH5D5Fqj\\', terjemahkan teks ke Bahasa Inggeris standard dan Bahasa Melayu standard, kembalikan struktur JSON ({\"english\", \"malay\"})'}\n",
      "{'left': 'arau ko po putangindnsmwjsnwbkdn', 'en': \"I'm sorry, I cannot translate this as it contains inappropriate language.\", 'ms': 'Maaf, saya tidak dapat menterjemahkan ini kerana ia mengandungi bahasa yang tidak sesuai.'}\n",
      "{'left': 'tulisan macam tulisan mak ', 'en': \"Text, 'writing like a mother's handwriting', translate text to standard English and standard Malay, return JSON structure\", 'ms': \"Teks, 'menulis seperti tulisan tangan ibu', terjemahkan teks ke bahasa Inggeris standard dan bahasa Melayu standard, kembalikan struktur JSON\"}\n",
      "{'left': '@joyreveI knPH BATU', 'en': '@joyreveI knPH BATU', 'ms': 'Saya tidak dapat menterjemahkan teks ini karena tidak memiliki makna dalam bahasa Melayu.'}\n",
      "{'left': 'affh iyh dek https://t.co/Nt2hCaXHcM', 'en': 'affh iyh dek https://t.co/Nt2hCaXHcM', 'ms': 'Maaf, saya tidak dapat menterjemahkan teks ini kerana ia tidak mempunyai makna yang jelas.'}\n",
      "{'left': '@Kuceswaramlg25 @bayusvara_ @berjakarta BM formal tu bm baku, baku time formal lah puki. Bmsia tu termasuk bahasa g https://t.co/dwObrtxc4u', 'en': '@Kuceswaramlg25 @bayusvara_ @berjakarta BM formal is standard Malay, use standard language in formal settings. Malaysian language is included in it. https://t.co/dwObrtxc4u', 'ms': '@Kuceswaramlg25 @bayusvara_ @berjakarta BM formal adalah bahasa Melayu standard, gunakan bahasa standard dalam situasi formal. Bahasa Malaysia termasuk di dalamnya. https://t.co/dwObrtxc4u'}\n",
      "{'left': 'cuss diisi slotny \\nReady Tambun\\n085811275512\\n#wariabokinganbekasi #shemalelovers #AVAILBO #AvailBooking #tambun #bekasi #Recomended4BO #Recomended #RecomendedBO #OpenBO #waria_vip #wariabokingan #wariaindo #availbekasi #wariabertoket #openbobekasi https://t.co/NYikwGVEmf', 'en': \"text, 'cuss diisi slotny Ready Tambun 085811275512 #wariabokinganbekasi #shemalelovers #AVAILBO #AvailBooking #tambun #bekasi #Recomended4BO #Recomended #RecomendedBO #OpenBO #waria_vip #wariabokingan #wariaindo #availbekasi #wariabertoket #openbobekasi https://t.co/NYikwGVEmf', translate text to standard english and standard malay, return JSON structure ({'english', 'malay'})\", 'ms': \"teks, 'cuss diisi slotny Siap Tambun 085811275512 #wariabokinganbekasi #shemalelovers #AVAILBO #AvailBooking #tambun #bekasi #Recomended4BO #Recomended #RecomendedBO #OpenBO #waria_vip #wariabokingan #wariaindo #availbekasi #wariabertoket #openbobekasi https://t.co/NYikwGVEmf', terjemahkan teks ke bahasa Inggeris standard dan bahasa Melayu standard, pulangkan struktur JSON ({'Inggeris', 'Melayu'})\"}\n",
      "{'left': 'Sambutan Hari Telekomunikasi dan Masyarakat Berinformasi Sedunia 2022 pada 17 Mei bertemakan Digital Technologies for Older Persons and Healthy Ageing. \\n\\nWTISD 2022 Sarawak State Office https://t.co/Y56eP4ibhE via @YouTube', 'en': \"Text, 'World Telecommunication and Information Society Day 2022 on May 17 with the theme Digital Technologies for Older Persons and Healthy Ageing. WTISD 2022 Sarawak State Office https://t.co/Y56eP4ibhE via @YouTube', translated to standard English and Malay, returned in JSON structure ({'english', 'malay'})\", 'ms': \"Teks, 'Hari Telekomunikasi dan Masyarakat Berinformasi Sedunia 2022 pada 17 Mei bertemakan Teknologi Digital untuk Orang Tua dan Penuaan Sihat. Pejabat Negeri Sarawak WTISD 2022 https://t.co/Y56eP4ibhE melalui @YouTube', diterjemahkan ke Bahasa Inggeris dan Bahasa Melayu standard, dikembalikan dalam struktur JSON ({'inggeris', 'melayu'})\"}\n",
      "{'left': '@dqrkspk gbleh aku lanang mas', 'en': '@dqrkspk gbleh aku lanang mas', 'ms': 'Maaf, saya tidak dapat menterjemahkan frasa ini karena ia menggunakan bahasa yang tidak baku.'}\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "{'left': ' banginho one tweet au.\\n\\ncw // nsfw  , blowjob , cum eating , kissing \\n\\nudah kenyang? \\n\\n(1/2) https://t.co/NKJKwVeA7r', 'en': \"text, 'banginho one tweet au. \\n\\ncw // nsfw, blowjob, cum eating, kissing \\n\\nudah kenyang? \\n\\n(1/2) https://t.co/NKJKwVeA7r', translate text to standard english and standard malay, return JSON structure ({'english', 'malay'})\", 'ms': \"teks, 'banginho satu tweet au. \\n\\ncw // nsfw, blowjob, makan air mani, ciuman \\n\\nudah kenyang? \\n\\n(1/2) https://t.co/NKJKwVeA7r', terjemahkan teks ke bahasa inggeris standard dan bahasa melayu standard, kembalikan struktur JSON ({'inggeris', 'melayu'})\"}\n",
      "{'left': 'Bubur in standard bm..kanji in perak accentmoi in kedahan accent', 'en': 'Porridge in standard Malay language, kanji in Perak accent, and moi in Kedahan accent.', 'ms': 'Bubur dalam bahasa Melayu standard, kanji dalam loghat Perak, dan moi dalam loghat Kedah.'}\n",
      "{'left': '@Babundoaum Cer dm ator gmbar', 'en': '@Babundoaum Cer dm ator gmbar', 'ms': 'Maaf, saya tidak dapat menterjemahkan teks ini kerana ia tidak mempunyai makna yang jelas.'}\n",
      "{'left': '(OST 7 Hari Mencintaiku 3) Aepul Roza - Bukan Dalam Rela (Official Music... https://t.co/K0fV7B7eCi via @YouTube https://t.co/0D7NpuxnHW', 'en': 'text, \\'(OST 7 Hari Mencintaiku 3) Aepul Roza - Bukan Dalam Rela (Official Music... https://t.co/K0fV7B7eCi via @YouTube https://t.co/0D7NpuxnHW\\', translate text to standard english and standard malay, return JSON structure ({\"english\", \"malay\"})', 'ms': 'teks, \\'(OST 7 Hari Mencintaiku 3) Aepul Roza - Bukan Dalam Rela (Muzik Rasmi... https://t.co/K0fV7B7eCi melalui @YouTube https://t.co/0D7NpuxnHW\\', terjemahkan teks ke bahasa inggeris standard dan bahasa melayu standard, kembalikan struktur JSON ({\"inggeris\", \"melayu\"})'}\n",
      "{'left': 'random, buko pandan(?) itu apa', 'en': \"text, 'random, buko pandan(?) itu apa', translate text to standard english and standard malay, return JSON structure\", 'ms': \"teks, 'rawak, buko pandan(?) itu apa', terjemahkan teks ke bahasa inggeris standard dan bahasa melayu standard, kembalikan struktur JSON\"}\n",
      "{'left': 'aku rasa kat tempat baru majority mmg susah nak faham kelantan aku pulak susah nak sabah sarawak even diorang cakap standard bm ', 'en': \"I think in a new place, it's generally difficult to understand Kelantan. For me, it's difficult to understand Sabah and Sarawak even though they speak standard Malay.\", 'ms': 'Saya rasa di tempat baru, kebanyakan orang akan sukar memahami Kelantan. Bagi saya pula, sukar memahami Sabah dan Sarawak walaupun mereka bercakap dalam bahasa Melayu standard.'}\n",
      "{'left': '@eppall16 Sedp ni klo dpt cium2 bau', 'en': 'Sorry, I cannot translate this text as it is not in a recognizable language.', 'ms': 'Maaf, saya tidak dapat menterjemahkan teks ini kerana ia tidak dalam bahasa yang dapat dikenal pasti.'}\n",
      "{'left': 'AAAAAAA HIYYIH', 'en': 'AAAAAAA HIYYIH', 'ms': 'Maaf, saya tidak dapat menterjemahkan teks ini.'}\n",
      "{'left': 'list upload kapal\\njeno : vibes liburan bareng ayang\\nrenjun : manusia estetik\\nchenle : anak lanang lagi liburan\\n\\nja https://t.co/ttnNhXRSDb', 'en': \"text, 'list upload kapal\\njeno: vibes vacation with loved one\\nrenjun: aesthetic human\\nchenle: young boy on vacation\\n\\nja https://t.co/ttnNhXRSDb', translate text to standard english and standard malay, return JSON structure ({'english', 'malay'})\", 'ms': \"teks, 'senarai muat naik kapal\\njeno: getaran percutian dengan yang tersayang\\nrenjun: manusia estetik\\nchenle: budak lelaki dalam percutian\\n\\nja https://t.co/ttnNhXRSDb', terjemahkan teks ke bahasa inggeris standard dan bahasa melayu standard, kembalikan struktur JSON ({'inggeris', 'melayu'})\"}\n",
      "{'left': 'jidal = QS. An Nahl: 125 \\n\\nwa jadihum ..akhsan (dan bantahlah yg baik)\\n\\nmembantah/adu argumen dg text/nash/bukti/il https://t.co/G2dmFdVCtT', 'en': \"Text, 'jidal = QS. An Nahl: 125\\n\\nwa jadihum ..akhsan (and argue with them in the best way)\\n\\nargue with evidence/text/nash/bukti/il https://t.co/G2dmFdVCtT', translate text to standard English and standard Malay, return JSON structure ({'english', 'malay'})\", 'ms': \"Teks, 'jidal = QS. An Nahl: 125\\n\\nwa jadihum ..akhsan (dan bantahlah yang baik)\\n\\nmembantah/adu argumen dengan teks/nash/bukti/il https://t.co/G2dmFdVCtT', terjemahkan teks ke Bahasa Inggeris standard dan Bahasa Melayu standard, kembalikan struktur JSON ({'english', 'malay'})\"}\n",
      "{'left': 'side story (bonus chapter): love at first sight part one. \\n\\njadi ini flashback ke beberapa tahun silam \\n\\n(https://t.co/qPrLWDxROw) https://t.co/wxKQoAqpqI', 'en': \"text, 'side story (bonus chapter): love at first sight part one. \\n\\nso this is a flashback to a few years ago\\n\\n(https://t.co/qPrLWDxROw) https://t.co/wxKQoAqpqI', translate text to standard english and standard malay, return JSON structure ({'english', 'malay'})\", 'ms': \"teks, 'cerita sampingan (bab bonus): cinta pada pandangan pertama bahagian satu. \\n\\njadi ini adalah kilas balik ke beberapa tahun yang lalu\\n\\n(https://t.co/qPrLWDxROw) https://t.co/wxKQoAqpqI', terjemahkan teks ke bahasa inggeris standard dan bahasa melayu standard, pulangkan struktur JSON ({'bahasa inggeris', 'bahasa melayu'})\"}\n",
      "{'left': 'Bahasa saya : sarawakian (kitakorang/torang), brunei (biskita), vaie (nyilew). maaf sangat kalau tak fasih BM stand https://t.co/lF4sRY040z', 'en': \"My language is Sarawakian (kitakorang/torang), Brunei (biskita), Vaie (nyilew). I'm sorry if I'm not fluent in standard Malay.\", 'ms': 'Bahasa saya ialah Sarawakian (kitakorang/torang), Brunei (biskita), Vaie (nyilew). Maaf sangat jika saya tidak fasih dalam Bahasa Melayu standard.'}\n",
      "{'left': 'mm ba nana https://t.co/E3H5zC5frm', 'en': 'mm ba nana https://t.co/E3H5zC5frm', 'ms': 'Maaf, saya tidak dapat menterjemahkan teks ini kerana ia tidak mempunyai makna yang jelas.'}\n",
      "{'left': 'Cdm kakk', 'en': 'Cdm kakk', 'ms': 'Maaf, saya tidak dapat menterjemahkan frasa ini.'}\n",
      "{'left': 'Hapunten dugi ka manajer toko anak, tapi sutradara Taisho Giants, Yomiuri Giants, kedah ngalakukeun ta ', 'en': 'Sorry, I am not able to translate this text as it appears to be in Indonesian language.', 'ms': 'Maaf, saya tidak dapat menterjemahkan teks ini kerana ia kelihatan dalam bahasa Indonesia.'}\n",
      "{'left': '@oryourhead Alamak, Tu Bahasa utara belah Perak. Tapi membawa maksud yg Sama waktu dengannya.', 'en': '@oryourhead Alamak, you speak the northern dialect of Perak. But it carries the same meaning as standard Malay.', 'ms': '@oryourhead Alamak, kamu bertutur dalam dialek utara Perak. Tetapi ia membawa maksud yang sama seperti bahasa Melayu standard.'}\n",
      "{'left': '@Imerxnn Mat ri yeee ', 'en': 'Imerxnn Mat ri yeee', 'ms': 'Saya tidak dapat menterjemahkan teks ini karena ia tidak mempunyai makna yang jelas.'}\n",
      "{'left': 'group kgjls,,,, isinya jual beli burung, batu giok,, mna gk laku lgi @txtdariAr @O27O21 https://t.co/gdYeeh29OI', 'en': \"text, 'group kgjls,,,, isinya jual beli burung, batu giok,, mna gk laku lgi @txtdariAr @O27O21 https://t.co/gdYeeh29OI', translate text to standard english and standard malay, return JSON structure ({'english', 'malay'})\", 'ms': \"teks, 'kumpulan kgjls,,,, mengandungi jual beli burung, batu giok,, mna gk laku lgi @txtdariAr @O27O21 https://t.co/gdYeeh29OI', terjemahkan teks ke bahasa inggeris standard dan bahasa melayu standard, kembalikan struktur JSON ({'inggeris', 'melayu'})\"}\n",
      "{'left': '@AmirulRuslam Cakap melaka je la mirul, ghisau dengar loghat hang ni', 'en': \"@AmirulRuslam, please speak in standard Malay. It's difficult to understand your Melaka dialect.\", 'ms': '@AmirulRuslam, tolong cakap dalam bahasa Melayu standard. Susah nak faham loghat Melaka awak.'}\n",
      "{'left': 'orang kelantan yang aku jumpa kan, bila aku cakap \"aku tak faham bahasa kelantan, guna bahasa melayu je\" diorang akan cakap \"pelan pelan belajar\"\\n\\nehhh kauuuuuu. feeling so entitle and think the world revolves around kau ye.', 'en': 'Whenever I meet someone from Kelantan and tell them that I don\\'t understand Kelantanese dialect and prefer to speak in standard Malay, they would say \"Take it slow and learn\". It\\'s frustrating how entitled some people can be.', 'ms': 'Setiap kali saya berjumpa dengan seseorang dari Kelantan dan memberitahu mereka bahawa saya tidak memahami dialek Kelantan dan lebih suka bercakap dalam bahasa Melayu standard, mereka akan berkata \"Ambil masa dan belajar\". Sangat menjengkelkan apabila ada orang yang merasa berhak seperti ini.'}\n",
      "{'left': '@treasurebabble Kan satu bapak nder jadi miri', 'en': \"@treasurebabble, can you please translate this text to standard English and Malay: 'Kan satu bapak nder jadi miri'?\", 'ms': \"@treasurebabble, bolehkah anda terjemahkan teks ini ke Bahasa Inggeris dan Bahasa Melayu standard: 'Kan satu bapak nder jadi miri'?\"}\n",
      "{'left': 'walaupun BM standard bukan bahasa pertuturan, saya cuba untuk tak merempit bila menulis hantaran.', 'en': 'Although standard Malay is not my spoken language, I try not to use slang when writing messages.', 'ms': 'Walaupun Bahasa Melayu standard bukan bahasa pertuturan saya, saya cuba untuk tidak menggunakan bahasa rempit apabila menulis mesej.'}\n",
      "{'left': '@pedoqpop Dok Shah Alam kecek la,nok kecek melayu bakpo?', 'en': '@pedoqpop, why are you speaking in Shah Alam dialect instead of standard Malay?', 'ms': '@pedoqpop, kenapa kamu bercakap dalam dialek Shah Alam bukan bahasa Melayu standard?'}\n",
      "{'left': 'Wey haahsjahhaah klaka la adoiii', 'en': 'Wey haahsjahhaah klaka la adoiii', 'ms': 'Maaf, saya tidak dapat menterjemahkan teks ini karena tidak memiliki arti atau bahasa yang jelas.'}\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "{'left': 'Bahasa saya : sarawakian (kitakorang/torang), brunei (biskita), vaie (nyilew). maaf sangat kalau tak fasih BM stand https://t.co/lF4sRY040z', 'en': \"My language is Sarawakian (kitakorang/torang), Brunei (biskita), Vaie (nyilew). I'm sorry if I'm not fluent in standard Malay.\", 'ms': 'Bahasa saya ialah Sarawakian (kitakorang/torang), Brunei (biskita), Vaie (nyilew). Maaf sangat jika saya tidak fasih dalam Bahasa Melayu standard.'}\n",
      "{'left': 'Merko kab', 'en': 'Merko kab', 'ms': 'Maaf, saya tidak dapat menterjemahkan frasa ini.'}\n",
      "{'left': 'tpi km gik baca au homo wak', 'en': 'I am not able to translate this text', 'ms': 'Saya tidak dapat menterjemahkan teks ini'}\n",
      "{'left': 'ANJR NGERI OI', 'en': 'ANJR NGERI OI', 'ms': 'Maaf, saya tidak dapat menterjemahkan teks ini.'}\n",
      "{'left': 'Ehh mg kalu xpanda cakak ganu xpayoh laa ckak capur klatan / ganu huduh ngak dengorr.. aq pahang jer mg cakak kl. kang aq v kayu atah tekok.', 'en': \"Hey, why do you need to speak in a difficult dialect? It's not necessary to complicate things. I'm from Pahang and I speak standard Malay. Otherwise, I might misunderstand. \", 'ms': 'Eh, mengapa perlu berbicara dalam dialek yang sukar difahami? Tidak perlu mempersulit perkara. Saya berasal dari Pahang dan saya bertutur dalam bahasa Melayu standard. Kalau tidak, saya mungkin akan salah faham.'}\n",
      "{'left': 'ptn! yang kaya dasar2nya dan wajib hapal &amp; paham  https://t.co/PMgB7VJ0hc', 'en': \"Text, 'ptn! yang kaya dasar2nya dan wajib hapal & paham https://t.co/PMgB7VJ0hc', translate text to standard English and standard Malay, return JSON structure ({'english', 'malay'})\", 'ms': \"Teks, 'ptn! yang kaya dasar2nya dan wajib hapal & paham https://t.co/PMgB7VJ0hc', terjemahkan teks ke bahasa Inggeris standard dan bahasa Melayu standard, kembalikan struktur JSON ({'inggeris', 'melayu'})\"}\n",
      "{'left': '@nrlashikin_ liew rr tuw', 'en': '@nrlashikin_ liew rr tuw', 'ms': 'Maaf, saya tidak dapat menterjemahkan teks ini kerana ia tidak mempunyai makna yang jelas.'}\n",
      "{'left': 'Batu tam ergen aq', 'en': 'Batu tam ergen aq', 'ms': 'Maaf, saya tidak dapat menterjemahkan frasa ini karena ia tidak mempunyai makna yang jelas dalam bahasa Inggeris atau bahasa Melayu.'}\n",
      "{'left': 'buknkelantanygterpalingislamke hmmm', 'en': \"I'm sorry, I cannot translate this text as it appears to be a jumbled combination of words with no clear meaning.\", 'ms': 'Maaf, saya tidak dapat menterjemahkan teks ini kerana ia kelihatan sebagai gabungan perkataan yang tidak jelas maknanya.'}\n",
      "{'left': ' seulrene onetweet.\\n\\ntentang hujan, kenangan, dan dosis obat yang berlebihan.\\n\\ntw // angst, slightly cheating, overdose, mention of trauma, mention of suicide attempt. https://t.co/3MCi4aeAvc', 'en': \"text, 'seulrene onetweet.\\n\\nabout rain, memories, and an overdose of medication.\\n\\ntw // angst, slightly cheating, overdose, mention of trauma, mention of suicide attempt. https://t.co/3MCi4aeAvc', translate text to standard english and standard malay, return JSON structure ({'english', 'malay'})\", 'ms': \"teks, 'seulrene onetweet.\\n\\nmengenai hujan, kenangan, dan dosis obat yang berlebihan.\\n\\ntw // angst, sedikit curang, overdosis, menyebut trauma, menyebut percubaan bunuh diri. https://t.co/3MCi4aeAvc', terjemahkan teks ke bahasa inggeris standard dan bahasa melayu standard, kembalikan struktur JSON ({'inggeris', 'melayu'})\"}\n",
      "{'left': 'rasa dan harapan.\\n\\n na jaemin seven tweet au. https://t.co/hQKrerkhq9', 'en': \"text, 'laughter and hope. na jaemin seven tweet au. https://t.co/hQKrerkhq9', translate text to standard english and standard malay, return JSON structure ({'english', 'malay'})\", 'ms': \"teks, 'ketawa dan harapan. na jaemin tujuh tweet au. https://t.co/hQKrerkhq9', terjemahkan teks ke bahasa inggeris standard dan bahasa melayu standard, kembalikan struktur JSON ({'inggeris', 'melayu'})\"}\n",
      "{'left': 'DISYAKI???????', 'en': 'DISYAKI???????', 'ms': 'Maaf, saya tidak dapat menterjemahkan teks ini.'}\n",
      "{'left': '@BA_Malaysia @haikalnazriii Selalu haikal bersembang dgn arif guna loghat apa? Kelantan or Terengganu atau cakap keyell?', 'en': '@BA_Malaysia @haikalnazriii Does Haikal always converse with Arif using the Kelantan or Terengganu dialect or does he speak in standard Malay?', 'ms': '@BA_Malaysia @haikalnazriii Adakah Haikal selalu berbual dengan Arif menggunakan dialek Kelantan atau Terengganu atau dia bercakap dalam bahasa Melayu standard?'}\n",
      "{'left': 'gbs gw seidh bGTtTTTTTTTTTTT https://t.co/RDlHlZQjCz', 'en': 'gbs gw seidh bGTtTTTTTTTTTTT https://t.co/RDlHlZQjCz', 'ms': 'Saya tidak dapat menterjemahkan teks ini ke dalam Bahasa Melayu.'}\n",
      "{'left': 'sch! ada yg ketrima sm uns make kipk ga?\\n\\n\\n Trivia: Kabupaten Kampar memiliki sebuah tradisi yang disebut Balimau Kasai', 'en': \"text, 'sch! ada yg ketrima sm uns make kipk ga?', translate text to standard english and standard malay, return JSON structure ({'english', 'malay'})\", 'ms': \"teks, 'sch! ada yg ketrima sm uns make kipk ga?', terjemahkan teks ke bahasa inggeris standard dan bahasa melayu standard, kembalikan struktur JSON ({'inggeris', 'melayu'})\"}\n",
      "{'left': 'filter-filter instastory yang cocok untuk mengcapture suasana di sekitarmu!\\n\\n-a thread https://t.co/l1zVcWp3Ph', 'en': \"text, 'filter-filter instastory that is suitable for capturing the atmosphere around you! -a thread https://t.co/l1zVcWp3Ph', translate text to standard english and standard malay, return JSON structure ({'english', 'malay'})\", 'ms': \"teks, 'filter-filter instastory yang sesuai untuk menangkap suasana di sekitarmu! -sebuah thread https://t.co/l1zVcWp3Ph', terjemahkan teks ke bahasa inggeris standard dan bahasa melayu standard, kembalikan struktur JSON ({'bahasa inggeris', 'bahasa melayu'})\"}\n",
      "{'left': '; hajeongwoo / rujeongwoo / haruwoo au\\n\\nisinya tentang keseharian jeong.woo si adek koass dan https://t.co/23lxvvBQAt si residen bedah https://t.co/ekMLWExIcN', 'en': \"Text, '; hajeongwoo / rujeongwoo / haruwoo au\\n\\nIt's about the daily life of Jeong.woo, a medical student, and https://t.co/23lxvvBQAt, a surgical resident https://t.co/ekMLWExIcN', translate text to standard English and standard Malay, return JSON structure ({'english', 'malay'})\", 'ms': \"Teks, '; hajeongwoo / rujeongwoo / haruwoo au\\n\\nIni tentang kehidupan harian Jeong.woo, seorang pelajar perubatan, dan https://t.co/23lxvvBQAt, seorang penduduk bedah https://t.co/ekMLWExIcN', terjemahkan teks ke bahasa Inggeris standard dan bahasa Melayu standard, kembalikan struktur JSON ({'english', 'malay'})\"}\n",
      "{'left': 'layout ready stock fee seiklasnya &gt;__&lt; 1 perak pun aku terima ^^ \\n\\n#zonauang #zonabu #zonaba https://t.co/KqbrYyBqm0', 'en': \"text, 'layout ready stock fee seiklasnya >__< 1 perak pun aku terima ^^ #zonauang #zonabu #zonaba https://t.co/KqbrYyBqm0', translate text to standard english and standard malay, return JSON structure ({'english', 'malay'})\", 'ms': \"teks, 'layout yuran stok sedia seiklasnya >__< saya terima 1 sen sahaja ^^ #zonauang #zonabu #zonaba https://t.co/KqbrYyBqm0', terjemahkan teks ke bahasa inggeris standard dan bahasa melayu standard, kembalikan struktur JSON ({'inggeris', 'melayu'})\"}\n",
      "{'left': '@prodseuls cipap baram', 'en': \"I'm sorry, I cannot translate or expand this text as it contains inappropriate language.\", 'ms': 'Maaf, saya tidak dapat menterjemahkan atau mengembangkan teks ini kerana ia mengandungi bahasa yang tidak sesuai.'}\n",
      "{'left': '@CaramelAtoonet Silakann', 'en': 'Silakann is a name or word that cannot be translated to standard British English.', 'ms': 'Silakann adalah nama atau perkataan yang tidak dapat diterjemahkan ke Bahasa Melayu standard.'}\n",
      "{'left': '@ZeynCroydon Sikpalah. Kmk jadi idrina jackman jak mun gia.', 'en': \"Sorry, I don't understand. Could you please rephrase that in Standard British English?\", 'ms': 'Maaf, saya tidak faham. Bolehkah anda ulang dalam Bahasa Melayu Standard?'}\n",
      "{'left': '@Keigocrackhead Ilek lah sampey bahasa sarawak kuar tok astaga', 'en': \"Oh my goodness, I can't believe you're speaking in Sarawakian dialect. Please speak in standard Malay or English.\", 'ms': 'Astaga, saya tidak percaya kamu berbicara dalam dialek Sarawak. Sila berbicara dalam bahasa Melayu standard atau bahasa Inggeris.'}\n",
      "{'left': '@ragezospirit anjg', 'en': 'Sorry, I cannot translate this text as it is not in a recognizable language.', 'ms': 'Maaf, saya tidak dapat menterjemahkan teks ini kerana ia tidak dalam bahasa yang dapat dikenal pasti.'}\n"
     ]
    }
   ],
   "source": [
    "with open('processed-twitter.jsonl', 'w') as fopen:\n",
    "    for d in filtered:\n",
    "        try:\n",
    "            if not reject(d['ms']):\n",
    "                print(d)\n",
    "                continue\n",
    "                # break\n",
    "            fopen.write(f'{json.dumps(d)}\\n')\n",
    "        except:\n",
    "            pass"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "691013 processed-twitter.jsonl\r\n"
     ]
    }
   ],
   "source": [
    "!wc -l processed-twitter.jsonl"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "--2023-12-17 10:37:45--  https://huggingface.co/datasets/mesolitica/chatgpt-twitter-noisy-translation/resolve/main/processed-twitter.jsonl\n",
      "Resolving huggingface.co (huggingface.co)... 18.67.181.124, 18.67.181.100, 18.67.181.126, ...\n",
      "Connecting to huggingface.co (huggingface.co)|18.67.181.124|:443... connected.\n",
      "HTTP request sent, awaiting response... 302 Found\n",
      "Location: https://cdn-lfs.huggingface.co/repos/21/d0/21d0390e9bf76f2033f4a4ea184960eca0437d1b383c98e7099fc070f1ef443c/c8c2285cd48864815d44346141e259dbe105a2c33469c343b1f2c493931eb58a?response-content-disposition=attachment%3B+filename*%3DUTF-8%27%27processed-twitter.jsonl%3B+filename%3D%22processed-twitter.jsonl%22%3B&Expires=1703039866&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTcwMzAzOTg2Nn19LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy5odWdnaW5nZmFjZS5jby9yZXBvcy8yMS9kMC8yMWQwMzkwZTliZjc2ZjIwMzNmNGE0ZWExODQ5NjBlY2EwNDM3ZDFiMzgzYzk4ZTcwOTlmYzA3MGYxZWY0NDNjL2M4YzIyODVjZDQ4ODY0ODE1ZDQ0MzQ2MTQxZTI1OWRiZTEwNWEyYzMzNDY5YzM0M2IxZjJjNDkzOTMxZWI1OGE%7EcmVzcG9uc2UtY29udGVudC1kaXNwb3NpdGlvbj0qIn1dfQ__&Signature=QhDWbxtbesCRa4C%7E9YU7ho5X%7EUh%7EZhzB7ugFIpQI9E4bF%7EMsaLjWgaOAJOeYq108LjjXONQm%7EVJki1Sf0LXvF9xsUrWHL6OvvfvXQ3v7w2%7ECbIH4HKFuZgDVXF06%7Ed8dE2XcAlepSihmAifVRkk3kfpDT%7EpDwRKctXGE3ErnXDajgmoNJJk5V4ON5iyeizGiTNcHExIWw4p98hP6mDGs%7EBx4wWrut4FyI9k9vqhJpweDcDGQSsUPtK8JH1HBWpmgZ6ckJgmGfRVqXxtj5EIKqs5TRJMJZ-iH2xjTV1untxgP1RfzQ5faSwibnzFyKbPTniq0YY3c5TzmaD1-MgSkLg__&Key-Pair-Id=KVTP0A1DKRTAX [following]\n",
      "--2023-12-17 10:37:46--  https://cdn-lfs.huggingface.co/repos/21/d0/21d0390e9bf76f2033f4a4ea184960eca0437d1b383c98e7099fc070f1ef443c/c8c2285cd48864815d44346141e259dbe105a2c33469c343b1f2c493931eb58a?response-content-disposition=attachment%3B+filename*%3DUTF-8%27%27processed-twitter.jsonl%3B+filename%3D%22processed-twitter.jsonl%22%3B&Expires=1703039866&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTcwMzAzOTg2Nn19LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy5odWdnaW5nZmFjZS5jby9yZXBvcy8yMS9kMC8yMWQwMzkwZTliZjc2ZjIwMzNmNGE0ZWExODQ5NjBlY2EwNDM3ZDFiMzgzYzk4ZTcwOTlmYzA3MGYxZWY0NDNjL2M4YzIyODVjZDQ4ODY0ODE1ZDQ0MzQ2MTQxZTI1OWRiZTEwNWEyYzMzNDY5YzM0M2IxZjJjNDkzOTMxZWI1OGE%7EcmVzcG9uc2UtY29udGVudC1kaXNwb3NpdGlvbj0qIn1dfQ__&Signature=QhDWbxtbesCRa4C%7E9YU7ho5X%7EUh%7EZhzB7ugFIpQI9E4bF%7EMsaLjWgaOAJOeYq108LjjXONQm%7EVJki1Sf0LXvF9xsUrWHL6OvvfvXQ3v7w2%7ECbIH4HKFuZgDVXF06%7Ed8dE2XcAlepSihmAifVRkk3kfpDT%7EpDwRKctXGE3ErnXDajgmoNJJk5V4ON5iyeizGiTNcHExIWw4p98hP6mDGs%7EBx4wWrut4FyI9k9vqhJpweDcDGQSsUPtK8JH1HBWpmgZ6ckJgmGfRVqXxtj5EIKqs5TRJMJZ-iH2xjTV1untxgP1RfzQ5faSwibnzFyKbPTniq0YY3c5TzmaD1-MgSkLg__&Key-Pair-Id=KVTP0A1DKRTAX\n",
      "Resolving cdn-lfs.huggingface.co (cdn-lfs.huggingface.co)... 18.161.180.7, 18.161.180.53, 18.161.180.15, ...\n",
      "Connecting to cdn-lfs.huggingface.co (cdn-lfs.huggingface.co)|18.161.180.7|:443... connected.\n",
      "HTTP request sent, awaiting response... 200 OK\n",
      "Length: 218272435 (208M) [binary/octet-stream]\n",
      "Saving to: ‘processed-twitter.jsonl’\n",
      "\n",
      "processed-twitter.j   2%[                    ]   5.81M  2.71MB/s               ^C\n"
     ]
    }
   ],
   "source": [
    "!wget https://huggingface.co/datasets/mesolitica/chatgpt-twitter-noisy-translation/resolve/main/processed-twitter.jsonl"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "{\"left\": \"@mazwinnikanis Dalam hujan lebat some more\", \"en\": \"In heavy rain some more\", \"ms\": \"Dalam hujan lebat lagi\"}\r\n",
      "{\"left\": \"@is_pelssy @TitiRusdi Wuuiihhh.. Ketemu dimana tuu? Salam ya\", \"en\": \"@is_pelssy @TitiRusdi Wuuiihhh.. Where did you meet? Say hi for me\", \"ms\": \"@is_pelssy @TitiRusdi Wuuiihhh.. Di mana kamu bertemu? Sampaikan salam untuk saya\"}\r\n",
      "{\"left\": \"Cakap jangan risau, tapi apa yang berlaku sejak sekolah buka:\\n\\n83 Kluster Pendidikan\\nLebih 4,868 kes di sekolah\\n27 sekolah di Johor tutup\\n19 sekolah di Selangor tutup\\nSemua sekolah di Kelantan tutup\\n\\nRakyat mestilah risau dapat Menteri macam Rina Harun dan Radzi Jidin. https://t.co/F9VfSb2Qvu\", \"en\": \"Don't worry, they said. But here's what happened since schools reopened: 83 Education Clusters, over 4,868 cases in schools, 27 schools closed in Johor, 19 schools closed in Selangor, and all schools closed in Kelantan. The people must worry with Ministers like Rina Harun and Radzi Jidin.\", \"ms\": \"Jangan risau, kata mereka. Tetapi inilah yang terjadi sejak sekolah dibuka semula: 83 Kluster Pendidikan, lebih daripada 4,868 kes di sekolah, 27 sekolah ditutup di Johor, 19 sekolah ditutup di Selangor, dan semua sekolah ditutup di Kelantan. Rakyat mestilah risau dengan Menteri seperti Rina Harun dan Radzi Jidin.\"}\r\n"
     ]
    }
   ],
   "source": [
    "!head -n 3 processed-twitter.jsonl"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.10"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}
